机器学习平台 TI-ONE
本文原作者:彭江军,经授权后发布。 导语: 这一节将着重说明,怎样定位线上和线下指标之间的差异,对齐线下和线上指标,得到一个大致的关系。优化线下什么指标,对应的能带来线上什么指标的提升。这样可以避免模型上线的风险。因此也是指标的分析也是十分重要的一个问题。 1:指标介绍 在该系列文章1中列举了几种常


本文原作者:彭江军,经授权后发布。 导语: 模型是机器学习三问里面的怎么去学的环节。是确定特征与因变量之间关系最为核心的步骤。这部分涉及到模型的选择,和优化目标以及损失函数的选取。排序由第一节讲到,LTR有三个模式,分别是pointwise, pairwise,listwise。在这里主要描述一下采


本文原作者:甘泉,经授权后发布。 一、多因子选股背景 量化交易策略无非三点:择时、选股、仓控。择时为短期套利交易策略,选股为中长期交易策略,目标是在中长期跑赢指数、获取市场超额收益率alpha。多因子选股的关键是找到寻找因子与股票收益率之间的相关性,即对收益率预测能力强的因子。一般多采用如下步骤:


为推动中国人工智能行业的发展,促进专业人才培养,以及推进人工智能领域一级学科建设,信息技术新工科产学研联盟联合腾讯公司于10月29日,在南京大学开展了高等院校人工智能人才培养暨智能应用建模课程研讨会。于10月25日-27日,11月16日-17日,11月22日-24日,分别在天津大学、西安交通大学、厦


本文原作者:尹迪,经授权后发布。 1 决策树理论 1.1 什么是决策树 所谓决策树,顾名思义,是一种树,一种依托于策略抉择而建立起来的树。机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。 树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,从根节点到叶节


本文原作者:尹迪,经授权后发布。 1.Bagging Bagging采用自助采样法(bootstrap sampling)采样数据。给定包含m个样本的数据集,我们先随机取出一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时,样本仍可能被选中,这样,经过m次随机采样操作,我们得到包含m个样


原作者:尹迪,经授权后发布。 1.二元逻辑回归 回归是一种很容易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病, 其中的望、闻、问、切就是获取的自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类


原作者:尹迪,经授权后发布。 1.Boosting Boosting是一类将弱学习器提升为强学习器的算法。这类算法的工作机制类似:先从初始训练集中训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注。 然后基于调整后的样本分布来训练下一个基


原作者:尹迪,经授权后发布。 1.介绍 线性支持向量机是一个用于大规模分类任务的标准方法。。它的损失函数是合页(hinge)损失,如下所示 默认情况下,线性支持向量机训练时使用L2正则化。线性支持向量机输出一个SVM模型。给定一个新的数据点x,模型通过w^Tx的值预测,当这个值大于0时,输出为正,否


本文原作者:尹迪,经授权后发布。 前言 LDA是一种概率主题模型:隐式狄利克雷分布(Latent Dirichlet Allocation,简称LDA)。LDA是2003年提出的一种主题模型,它可以将文档集中每篇文档的主题以概率分布的形式给出。 通过分析一些文档,我们可以抽取出它们的主题(分布),根


本文原作者:尹迪,经授权后发布。 1牛顿法 设f(x)是二次可微实函数,又设$x^{(k)}$是f(x)一个极小点的估计,我们把f(x)在$x^{(k)}$处展开成Taylor级数, 并取二阶近似。 上式中最后一项的中间部分表示f(x)在$x^{(k)}$处的Hesse矩阵。对上式求导并令其等于0,


本文原作者:尹迪,经授权后发布。 梯度下降(GD)是最小化风险函数、损失函数的一种常用方法,随机梯度下降和批量梯度下降是两种迭代求解思路。 1 批量梯度下降算法 假设h(theta)是要拟合的函数,J(theta)是损失函数,这里theta是要迭代求解的值。这两个函数的公式如下,其中m是训练集的记录


本文原作者:尹迪,经授权后发布。 假设向量`v`是方阵`A`的特征向量,可以表示成下面的形式: 这里lambda表示特征向量v所对应的特征值。并且一个矩阵的一组特征向量是一组正交向量。特征值分解是将一个矩阵分解为下面的形式: 其中Q是这个矩阵A的特征向量组成的矩阵。sigma是一个对


本文原作者:岳夕涵,经授权后发布。 导语 做模型的同学基本都会使用tensorflow,不知道大家是否会像我一样对tensorflow的模型存储感到疑惑:各种模型保存的方法、保存出的模型文件名称和结构还不一样、加载模型的时候有的需要重新定义一遍计算图而有的不需要、有的格式tfserving能用有的不


本文原作者:尹迪,经授权后发布。 1 主成分分析原理 主成分分析是最常用的一种降维方法。我们首先考虑一个问题:对于正交矩阵空间中的样本点,如何用一个超平面对所有样本进行恰当的表达。容易想到,如果这样的超平面存在,那么他大概应该具有下面的性质。 最近重构性:样本点到超平面的距离都足够近 最大可分性:样

